Gestión de datos - parte 1

Residencia de Epidemiología

Concepto



La gestión de datos vinculada a procesos de investigación o vigilancia epidemiológica implica la organización, la planificación, el almacenamiento, la preservación y la difusión de los datos antes, durante y despues de la etapa de análisis.

Ciencia abierta


La ciencia abierta tiene como objetivo hacer que la investigación y la difusión científicas sean accesibles para todos, lo que hace absolutamente necesaria la necesidad de buenas prácticas de gestión de datos.


Fuente de datos


Fuente primaria:

  • El término datos primarios se refiere a datos recolectados por el investigador por primera vez
  • Suelen necesitar una gran cantidad de recursos como tiempo, dinero y mano de obra.
  • Requieren un proceso de limpieza y depuración para tratar, previo al análisis, los datos crudos.

Fuente de datos


Fuente secundaria:

  • Los datos secundarios implican información que ya ha sido recopilada y registrada por otra/s persona/s diferente al analista, generalmente para un propósito que no está relacionado con el análisis actual.
  • se enmarcan en el paradigma de open data y por su disponibilidad no tiene costo para el investigador.
  • A veces los datos no son lo específicos que quisiéramos.

Conjuntos de datos

Un dato contiene la mínima unidad de información y desde la óptica informática es una representación simbólica (numérica, alfabética, etc) de un atributo o característica de una entidad.

En nuestro trabajo el dato siempre representa el valor / medida (variables cuantitativas) o modalidad / categoría (variables cualitativas) de una variable.

Un conjunto de datos mínimo está organizado en un formato rectangular que permite que la información sea legible por la computadora.

Los conjuntos de datos rectangulares, también llamados tabulares, se componen de columnas y filas y se asocian a una sola unidad de investigación u observación.

Conjuntos de datos


Partes básicas de una tabla de datos estructurada

Columnas (Variables)


  • Variables recopiladas: son variables recogidas de un instrumento (cuestionario estrcuturado, etc) en fuentes primarias o fuente secundarias (externa).
  • Variables creadas: variables construidas en el análisis o variables derivadas o indicadores con fines de resumen (llamada también información agregada).
  • Variables de identificación: valores que identifiquen de forma únivoca a los sujetos en sus datos (por ejemplo, el DNI o historia clínica u otro identificador ad hoc si se desea preservar la identidad).

Atributos de las variables

  • Nombre de variable: representación corta de la información contenida en una columna (deben ser únicos)
  • Tipos de variable: determina los valores permitidos para una variable, las operaciones que se pueden realizar en la variable y cómo se almacenan los valores.
    • numéricos (con y sin decimales), de caracteres, de fecha o lógicos (valores True y False).
  • Valores variables: hacen referencia a la información contenida en cada columna. En cada variable se puede configurar los valores permitidos predeterminados en forma de validación a la carga de datos.

Filas (observaciones)

  • Las filas del conjunto de datos representan a los sujetos (también llamados registros u observaciones) de sus datos.

  • Los sujetos de su conjunto de datos pueden ser personas, hogares, ubicaciones como países o provincias, etc.

  • Todas las observaciones de una tabla de datos pertenecen a una sola unidad de observación (entidad que deseamos estudiar, es decir, aquella que se observa para efectuar mediciones o para clasificarla en categorías)

Base de datos


Una base de datos es “una colección organizada de datos almacenados como múltiples conjuntos de datos”

  • El tipo de organización de estas bases de datos se denomina relacionales porque las observaciones de las tablas se “relacionan” entre sí mediante claves primarias y externas (foráneas).

  • Las tablas suelen representar distintas unidades de observación. También puede existir una tabla principal y otras auxiliares que conectan mediante códigos.

Datos abiertos (open data)


Son considerados datos abiertos todos aquellos datos accesibles y reutilizables, sin exigencia de permisos específicos.

  • Tiene una ética similar a otros movimientos y comunidades abiertos, como el software libre y el código abierto.

  • Hay una tendencia creciente de que la producción de datos públicos se compartan en el marco de open data para lxs ciudadanxs tengan acceso libre y la gestión sea transparente.

  • En nuestro país, tanto Estado nacional, como las provincias y municipios publican repositorios o banco de datos abiertos.

Ejemplo para anlizar


Veamos un ejemplo de datos abiertos sobre una encuesta de salud que se viene haciendo en Argentina desde 2005 cada 4 años aproximadamente.

Los responsables de llevarla a cabo son el Misniterio de Salud de la Nación y el INDEC.


Uno de sus sitios es: https://www.indec.gob.ar/indec/web/Institucional-Indec-BasesDeDatos-2